机器人训练遇瓶颈?清华和上海AI Lab出新招,缺数据也能冲 SOTA
一直以来,VLA模型训练走的都是“大规模预训练+有监督微调(SFT)”的路子。可这SFT简直是个“吞金兽”,要训练它得有大量高质量的机器人操作轨迹数据。
一直以来,VLA模型训练走的都是“大规模预训练+有监督微调(SFT)”的路子。可这SFT简直是个“吞金兽”,要训练它得有大量高质量的机器人操作轨迹数据。
这篇论文标题是《ASurveyofReinforcementLearningforLargeReasoningModels》,专门梳理RL在大推理模型(LRM)里的最新进展。
然而,现有方法多依赖于监督微调(SFT),模型一来只能模仿预先构造的 parallel thinking 数据,难以泛化到真实的复杂任务中,其次这种方式对数据要求很高,往往需要复杂的 data pipeline 来构造。
在 2013 年,DeepMind 就展示过一个小实验:用 RL 训练的智能体,只凭屏幕上的像素和得分反馈,就能学会玩上世纪的街机游戏《打砖块》。几年后,AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号,超越了世界顶尖棋手,在围棋、国际象棋和
为此,上海人工智能实验室OpenDataLab团队在数据领域持续深耕,正式推出了开放数据竞技场OpenDataArena
就是 验证非对称性(Asymmetry of Verification) —— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是:对很多任务而言, 验证一个解的好坏,远比从头创造一个解要容易得多 。
浙大 eagle ailab rrvf 浙大eaglelab 2025-08-09 21:34 8
深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式。